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混合 蛙 跳 算法 在 文本 分 类 特征 选择 优化 中 


的 应 用 


路 永和 ” 陈 景 煌 


(中 山大 学 资讯 管理 学 院 广州 510006) 


摘要 : 【目的 】 


| 于 文本 数据 存在 许多 与 分 类 不 相关 的 见 余 词 项 ， 引 入 混合 蛙 跳 算法 进行 特征 选择 优化 ,提高 分 


类 准确 率 。[ 方法 】 分 别 使 用 CHI 和 IG 预选 出 不 同 维度 的 特征 集合 ， 
集合 进行 二 次 优选 , 每 只 青蛙 的 位 置 代表 一 种 特征 选择 规则 , 将 分 类 准确 率 作为 算法 的 适应 度 函 数 。SVM 和 
] 于 实验 中 分 类 准确 率 的 计算 。[ 结果 ] 引 入 改进 后 的 蛙 跳 算法 比 CHI 和 IG 能 得 到 更 好 的 分 类 效果 ， 
H 现 过 拟 合 现象 。【 结论 】 采用 特征 词 预选 和 改进 后 的 蛙 


KNN 分 类 器 


最 大 提升 幅度 达到 12%。[ 局 限 ] 在 少 部 分 特征 维度 下 日 


了 引入 改进 后 的 混合 蛙 跳 算 法 对 预选 特征 


oo 


跳 算法 相 结合 的 特征 选择 优化 方法 可 以 有 效 排 除 部 分 噪声 特征 项 的 干扰 ， 从 而 提高 文本 分 类 准确 率 。 
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1 3 引 


在 文本 信息 处 理 领 域 , 文本 分 类 作为 信息 挖掘 、 
自然 语言 处 理 、 信 息 检索 等 技术 的 重要 基础 得 到 了 
许多 学 者 的 关注 和 研究 。 文 本 分 类 技术 已 经 从 传统 的 
人 工分 类 发 展 到 基于 机 器 学 习 的 自动 分 类 外, 文本 分 
类 在 质量 和 效率 两 方面 都 得 到 较 大 提高 。 而 文本 数据 
往往 具有 高 维 、 稀 跻 、 多 标号 等 特点 ,， 这些 在 一 定 程 
度 上 影响 了 文本 分 类 效果 , 因而 文本 特征 选择 优化 成 
为 学 界 的 研究 热点 。 在 向 量 空间 模型 (Vector Space 
Model, VSM) 中 ,原始 特征 集合 中 的 每 个 特征 项 对 分 
类 学 习 不 一 定 都 是 必要 的 ， 有些 噪声 特征 项 不 仅 增 加 
了 特征 集合 的 维度 , 而 且 会 影响 文本 分 类 的 整体 效 
果 。 因 此 需要 对 特征 集合 进行 降 维 处 理 。 

本 文 使 用 在 文本 领域 还 未 得 到 较 多 应 用 的 混合 蛙 
跳 算 法 (Shuffled Frog Leaping Algorithm, SFLA), 对 其 
进行 编码 规则 、 个 体 进化 方式 等 方面 的 改进 ,并 将 其 
应 用 在 文本 特征 选择 优化 中 , 最 后 通过 实验 证 明 这 种 


了 中 


方法 的 有 效 性 。 
2 相关 研究 


2.1 传统 的 文本 特征 选择 方法 

文本 分 类 的 过 程 主要 包括 : 文本 预 处 理 和 分 词 、 
文本 表示 、 特 征 选 择 、 权 重 计算 、 使 用 分 类 器 分 类 。 
其 中 , 文本 表示 主要 是 采用 VSM 表示 口 ， 而 文本 经 预 
处 理 后 得 到 的 特征 集合 的 维 数 非常 高 ,特征 分 布 稀 玻 ， 
因此 每 个 文本 都 被 表示 成 一 个 高 维 向 量 。 而 高 维 向 量 
对 分 类 需 造 成 很 大 的 计算 负担 , 因此 文本 特征 选择 在 
文本 分 类 中 非常 重要 , 经 过 特征 选择 后 得 到 具有 文本 
代表 性 的 特征 词 集合 ,从 而 降低 每 个 文本 向 量 的 空间 
维 数 ， 提 高 分 类 效率 和 准确 率 。 目 前 学 界 使 用 的 特征 
选择 方法 主要 有 文档 频率 (Document Frequency DF)、 
卡 方 检验 (CHD 、 信 息 增益 (IG)、 互 信息 (Mutual 
Information, MD 等 。 有 相关 试验 证 明 , CHI 分 类 效果 好 
但 是 计算 开销 较 高 站; 在 英文 文本 集 的 分 类 中 , CHI 与 
IG 效果 最 佳 , DF 基本 与 前 两 者 相当 ,而 MI 则 相对 较 
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差 品 ; 在 中 文 文本 集 的 分 类 中 ，CHI 的 效果 最 佳 ， 其 次 
为 IG, 而 MI 相对 较 差 中 ,DF 的 效果 居中 口 。 

但 是 CHI 、IG 等 传统 的 特征 选择 方法 是 通过 某 
数学 模型 从 原始 特征 集合 中 筛选 出 具有 较 好 的 区 分 能 
力 和 文本 代表 性 的 特征 集合 , 并 没有 从 文本 的 角度 考 
虑 特征 词 之 间 的 相互 影响 以 及 宛 余 词 项 对 文本 分 类 效 
果 的 整体 影响 。 因 此 ， 基 于 传统 特征 选择 方法 ,通过 引 
入 改进 后 的 混合 蛙 跳 算法 , 利用 该 算法 较 强 的 寻 优 能 
力 ， 对 预选 的 特征 集合 进行 二 次 优化 ， 从 而 得 到 特征 
维度 相对 较 低 的 高 精度 特征 集合 , 并 且 改 进 了 最 终 的 
分 类 结果 。 

2.2 ”结合 群体 智能 算法 的 特征 选择 优化 

近年 来 , 不 断 有 学 者 将 群体 智能 算法 应 用 到 文本 
特征 选择 领域 中 , 并 且 效 果 明 显 。 总 体 方向 大 致 可 以 
分 为 两 个 : 

(1) 直接 使 用 群体 智能 算法 进行 文本 特征 选择 ， 


不 再 使 用 传统 文本 特征 选择 方法 , 这 个 方向 的 研究 成 
果 主 要 有 : Tabakhi 等 提出 UFSACO 方法 ， 即 将 蚁 群 
算法 (ACO) 引 入 到 无 监督 的 特征 选择 方法 中 ,考虑 到 
特征 之 间 的 相关 性 ,从 而 提出 特征 集合 中 的 宛 余 词 项 ， 
实现 降 维 效果 , 并 通过 实验 说 明 该 方法 比 传统 特征 选 
择 方法 能 得 到 更 好 的 分 类 效果 。 刘 亚 南 中 将 基于 遗传 
算法 (GA) 的 文本 特征 选择 方法 运用 到 动态 获取 K 值 
的 KNN 分 类 算法 中 。 刘 天 凹 构建 基于 野草 算法 的 文 
本 特征 选择 模型 ， 该 模型 可 以 给 予 权 重 值 较 低 的 词 
条 进行 特征 选择 的 机 会 ， 同 时 保证 权重 值 高 的 特征 
词 选 择优 势 ， 从 而 更 全 面 地 提高 文本 特征 选择 的 全 
面 性 和 准确 率 。 

(2) 将 群体 智能 算法 结合 传统 文本 特征 选择 方法 ， 
即 先 使 用 传统 特征 选择 方法 得 到 预选 特征 集合 , 再 引 
入 群体 智能 算法 进行 精 选 , 最 后 得 到 高 精度 的 特征 集 
合 ， 从 而 提高 文本 分 类 效果 ,主要 有 以 下 研究 成 果 : 
Uguz0 在 使 用 传统 特征 选择 方法 IG 的 基础 上 , 分 别 引 
入 遗传 算法 和 主 成 分 分 析 法 (PCA) 进 行 二 次 特征 选择 
和 抽取 ,剔除 与 分 类 无 关 的 特征 词 项 , 实现 降 维 , 并 
且 取 得 不 错 的 分 类 效果 。Javed 等 09 通 过 使 用 传统 特 
征 选 择 方法 BNS 和 IG 进行 特征 词 预选 ， 然 后 结合 
Markov Blanket Filter(MBF) 算 法 对 预选 特征 词 进行 二 
次 筛选 从 而 实现 降 维 并 改进 了 文本 分 类 效果 。Lnu 等 
iD 使 用 CHI 进行 特征 词 预选 , 然后 分 别 使 用 所 提出 的 
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6 种 改进 的 粒子 群 优 化 算法 (PSO) 对 预选 特征 集合 
行 精 选 , 最 后 通过 实验 表明 异步 改进 的 PSO 算法 具有 
最 佳 的 文本 分 类 效果 。 

本 文 将 SFLA 结合 传统 文本 特征 选择 方法 ,先进 
行 特 征 词 预 选 , 再 引入 改进 后 的 二 进 制 SFLA 进行 特 
征 词 精 选 ,从 而 得 到 高 精度 的 特征 集合 , 并 最 终 改 进 
文本 分 类 效果 。 
2.3 混合 蛙 跳 算法 

混合 蛙 跳 算法 是 由 Eusu 任 等 5 提出 的 一 种 协同 搜 
索 群 智能 算法 ,该 算法 同时 结合 了 模 因 算法 (Memetic 
Algorithm，MA) 和 粒子 群 优化 算法 ， 既 有 模 因 算法 的 
遗传 特性 ， 又 有 粒子 群 算法 的 社会 信息 共享 的 特点 。 
算法 流程 简单 合理 ,参数 较 少 , 并 且 收 敛 速度 快 、 全 局 
寻 优 能 力 强 。 

SFLA 最 初 受 青蛙 砚 食 的 生物 现象 启发 而 被 提出 。 
由 只 青蛙 组 成 的 蛙 群 P 在 一 个 受 限 的 5 维度 空间 中 
寻找 有 限 且 最 优 的 食物 源 。 每 只 青蛙 i 的 位 置 用 
X= {XX Ny，… Xs}， 其 中 S 表示 青蛙 所 在 空 
间 的 维度 , 总 在 对 于 解决 优化 问题 时 则 表示 一 个 可 行 
解 向 量 , 并 计算 每 只 青蛙 当前 位 置 的 优 劣 程度 ， 即 适 
应 度 FCO)。 然 后 按照 其 适应 度 FX) 大 小 降序 排列 ， 并 
记录 当前 种 群 的 全 局 最 优 位 置 系 。 再 将 整个 性 群 分 成 
n 个 族群 ,每 个 族群 包括 m 只 青蛙 。 分 组 规则 为 : 第 1 
只 青蛙 分 人 第 1 个 族群 , 第 2 只 青蛙 分 入 第 2 个 族群 ， 
第 m 只 青蛙 分 和 第 m 个 族群 , 第 m+l 只 青蛙 分 人 第 1 
个 族群 ,以 此 类 推 , 并 记录 每 个 族群 的 局 部 最 优 解 马 
和 最 差 解 多,。 接 下 来 每 个 族群 进行 组 内 进化 ,进化 的 
方式 0 为 : 


岩 


D=rand():(X, —X,,) (1) 
X'=X,+D, -D,,. <D<D,,. (2) 
其 中 , rand0 为 0 到 1 之 间 的 随机 数 ; D 是 指 青蛙 每 
次 跳跃 的 步 长 距离 ，X', 是 指 跳跃 后 青蛙 所 处 的 位 置 。 
根据 公式 (1) 和 公式 (2) 计 算得 出 X' 。 如 果 XX,, 适 
应 度 五 (XX',) 优 于 也 , 的 适应 度 FX,)， 则 用 了 Y', 代替 芳 ,， 
继续 下 一 次 的 组 内 进化 ; 否则 用 下 代 蔡 公式 (1) 中 的 
总 , 根据 公式 (1) 和 公式 (2) 计 算得 出 XX’ 。 如 果冻 ' 的 适 
应 度 五 (XX',) 优 于 叉 , 的 适应 度 FE， 则 用 了 ', 代替 大 ,， 
进入 下 一 次 的 组 内 进化 ; 否则 随机 生成 一 个 ,并 
用 其 代替 已。 进入 下 一 次 组 内 进化 。 当 每 个 族群 的 组 


内 进化 次 数 都 达到 最 大 次 数 志 时 , 将 所 有 族群 的 青蛙 
重新 混合 在 一 起 ， 重 新 按照 各 自 的 适应 度 F(X) 降 序 排 
列 , 更 新 当前 最 优 解 了, 并 以 此 种 群 为 基础 继续 构 
造 下 一 代 新 种 群 ， 直 到 达到 最 大 总 迭代 次 数 7 或 者 满 
足 算法 结束 条 件 。 

目前 SFLA 已 经 被 应 用 到 水 资源 网 络 优化 5 、 桥 面 
修复 5 、 含 风电 场 电力 系统 的 动态 优化 潮流 计算 号 1、 
分 布 式 风 电源 (DWG) 规 划 模 型 中 、 语 音 识别 中 "等 领 
域 中 。 

但 是 在 所 查找 的 文献 中 , SFLA 被 应 用 于 文本 信息 
处 理 领 域 的 相关 研究 较 少 。 其 中 , 许 方 1 改进 了 传统 
的 SFLA, 并 将 其 分 别 与 K-means 和 FCM 结合 , 应 用 
到 文本 肾 类 领域 中 , 并 且 提 高 了 Web 文本 聚 类 的 精 
度 。 同 样 在 文本 聚 类 方面 ， 尉 建 兴 等 吕 将 SFLA 与 
K-means 算法 结合 ， 提高 了 聚 类 的 性 能 。 在 文本 分 类 
方面 , Sun 等 名 则 以 SFLA 直接 作为 分 类 算法 , 以 LDA 
作为 特征 选择 方法 , 提高 了 Web 文本 分 类 的 准确 率 。 
截至 目前 ，SFLA 在 文本 信息 处 理 领域 中 的 应 用 比较 
少 。 本 文 尝试 对 SFLA 进行 改进 , 将 其 与 传统 特征 选 
择 方法 结合 , 并 通过 实验 验证 其 有 效 性 与 可 行 性 。 
3 ”基于 混合 蛙 跳 算法 的 文本 特征 选择 优化 
3.1 算法 改进 

(1) 编码 规则 

由 于 文本 特征 选择 优化 问题 本 质 上 是 组 合 优化 问 
题 , 所 以 SFLA 将 进行 二 进 制 编码 规则 改进 ， 即 每 一 
只 青蛙 对 应 的 位 置 代 表 一 种 特征 选择 规则 , 一 只 青蛙 
的 每 一 维 对 应 一 个 特征 项 , 而 每 一 个 特征 项 对 应 着 两 
种 结果 : 被 选中 与 不 被 选中 , 每 个 特征 项 被 选中 则 取 
1, 不 被 选中 则 取 0。 所 以 , 每 个 解 向 量 (青蛙 的 位 置 ) 
可 以 表示 为 : 

X= XX Ns} Xj Et0,l} (3) 

其 中 , 铸 表 示 第 i 个 解 向 量 , xj 表示 第 i 个 解 向 量 的 
第 j 个 分 量 , 并 且 只 可 以 取 0 或 者 1。 若 xj=1, 说 明 第 
i 个 解 向 量 中 的 第 j 个 特征 项 被 选中 ; 车 x=0, 说 明 第 
i 个 解 向 量 中 的 第 j 个 特征 项 未 被 选中 。 

(2) 个 体 进化 方式 的 改进 

由 于 本 文 使 用 的 SFLA 是 二 进 制 编码 , 标准 SFLA 
的 个 体 进化 方式 ( 即 公 式 (1) 和 公式 (2)) 不 再 适用 ,因此 
对 SFLA 的 个 体 进化 方式 做 如 下 改进 , 使 其 能 够 更 适 


用 于 文本 特征 选择 的 优化 , 具体 改进 流程 如 图 1 所 示 。 


Dw= RI U R, 


取 前 r,% 
的 特征 项 
元 素 


取 前 r1% 
的 特征 项 
元 素 


X= Dm UG 


R 


G=%,NN X, 
图 1 SFLA 的 个 体 进化 方式 改进 流程 图 
首先 求 出 某 个 族群 里 的 最 优 解 各 和 最 差 解 允 , 都 
选中 的 特征 项 集合 G( 即 对 于 第 j 个 分 量 (特征 项 ), 马 
与 多 ,同时 取 1 的 所 有 分 量 的 集合 ), 将 马 与 马 看 作 是 
合 , 则 G 是 马 与 已, 的 交集 : 


G=X, NX,, (4) 
然后 求 每 只 青蛙 跳跃 时 的 步 长 Do。 计算 公式 如 下 : 
R=nO(X,-—X,) (5) 
R, =n ©O(X,—X,) (0) 
Do = RIUBR, (7) 


其 中 ，GC 马 ) 与 CC 一 蕊 ) 表 示 集 合 的 差 运算 。 广 与 
疡 是 0 到 100 的 随机 整数 ，n ©O(X, 一 Y,) 表示 从 
(Xs-Y,) 这 个 集合 里 取 前 百 分 之 ri 的 特征 项 元 素 , 构成 
集合 RI， ©(X,, 一 站 ,) 表示 从 (XX) 这 个 集合 里 取 
前 百 分 之 的 特征 项 元 素 , 构成 集合 R,; 再 取 二 者 并 
集 得 到 集合 Do。 即 为 每 只 青蛙 跳跃 的 步 长 。 如 : 当 
让 =20, 12=40，(WX,) 集 合 中 有 100 个 元 素 ，C 人 一 蕊 ) 集 
合 中 有 200 个 元 素 , 则 从 (Cj-%,) 集 合 中 取 前 
100x20%=20 个 特征 项 ， 从 人 =- 区 集 合 中 取 前 
200x40%=80 个 特征 项 , 这 20+80=100 个 特征 项 组 成 
了 集合 Das， 即 某 只 青蛙 某 次 跳跃 时 的 步 长 。 最 后 组 
内 某 只 青蛙 某 次 跳跃 后 的 位 置 更 新 为 : 

Xi =GCUD、 (8) 

这 里 对 SFLA 的 个 体 进 化 方式 改进 是 基于 以 下 理 
由 : 首先 求 最 优 解 及 与 最 差 解 卫 ,之 间 的 交集 G， 即 保 
留 二 者 之 间 的 “共同 特征 项 ”从 而 新 产生 的 个 体 在 “ 继 
承 ” 其 二 者 的 共同 特征 项 的 基础 上 继续 进化 ,寻找 到 
更 优 位 置 。 然 后 计算 青蛙 跳跃 时 的 步 长 时 , 分 别 从 驻 
与 马 各自“ 特有 ”的 特征 项 元 素 中 选取 前 若干 个 特征 
项 来 组 成 集合 Dew。 这 样 的 做 法 是 让 新 产生 的 个 体 随 
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机 ”继承 "若干 比例 的 总 与 马 “特有 ”的 特征 项 ， 从 而 让 
新 个 体 产生 某 个 方向 的 进化 ; 另外 , 由 于 候选 特征 集合 
是 经 过 CHI 或 者 IG 筛选 得 到 的 , 集合 中 的 特征 项 都 是 按 
照 CHI 得 分 或 者 IG 得 分 从 高 到 低 排序 的 , 得 分 越 高 则 越 
有 代表 性 , 所 以 选取 的 是 排 位 靠 前 的 若干 个 特征 项 。 

(3) 最 大 移动 步 长 Da 的 改进 

以 上 对 标准 SFLA 的 个 体 进 化 方式 中 步 长 的 计算 
进行 了 改进 , 使 其 适用 于 解决 特征 选择 优化 问题 ,所 
以 对 最 大 移动 步 长 De wow 也 需要 进行 重新 定义 。 

首先 定义 一 个 新 变量 : 差异 度 (diff)， 是 指 新 产生 
个 体 X' 与 原来 已 之 间 在 对 应 维 数 的 解 分 量 上 存在 多 
大 比例 不 同 ; 则 De wow 指 允 许 新 产生 个 体 X' 与 已， 
之 间 的 最 大 差异 度 。 比 如 : X'={1,0,1,1,0,1} ， 
了 ,= {0,1,1,1,0,0} ， 了 XY' 与 马 分 别 在 第 1、2、6 维 的 
解 分 量 上 不 同 , 则 二 者 的 差异 度 diff=(3/6)x100%= 
50%， 所 以 二 者 存在 50% 的 差异 。 

引入 差异 度 diff 这 个 变量 是 为 了 计算 二 进 制 编码 
规则 下 的 青蛙 个 体 之 间 的 差异 比例 ， 相 当 于 标准 
SFLA 的 步 长 ; 但 由 于 对 二 进 制 SFLA 下 的 步 长 的 计算 
公式 进行 了 改进 , 步 长 不 再 表示 新 个 体 与 原来 个 体 之 
间 的 差异 程度 。 因 此 改进 后 的 蛙 跳 算法 的 最 大 移动 步 
长 Da now 是 指 允 许 新 产生 的 个 体 X' 与 原来 的 已 ,之 


间 的 最 大 差异 度 。 
3.2 ”相关 参数 设置 
本 文采 用 的 改进 后 的 二 进 制 SFLA 算法 共 需 要 设 


置 5 个 参数 : 蛙 群 规模 入、 族群 数量 n、 最 大 移动 步 长 
Dw、 族群 内 进化 次 数 工 、 总 迭代 次 数 7。 参数 的 设置 
对 算法 的 运行 效果 有 较 高 的 影响 程度 。 

SFLA 的 蛙 群 规模 是 指 种 群 中 所 有 青蛙 的 数量 N， 
对 于 组 合 优化 问题 则 是 指 初始 生成 的 解 向 量 个 数 。 一 
般 情 况 下 , YX 值 与 问题 的 复杂 度 相 关 , 但 由 于 本 实验 在 
计算 青蛙 的 适应 度 的 时 间 开 销 较 大 ,因此 将 青蛙 总 数 
量 设置 为 20。SFLA 的 族群 n 要 根据 划分 后 每 个 族群 
内 青蛙 的 数量 m 的 大 小 来 设置 ,本文 将 族群 数量 n 设 
置 为 5, 则 族群 内 青蛙 数量 为 4, 改 进 后 的 二 进 制 SFLA 
的 最 大 移动 步 长 Da 是 指 允 许 新 产生 的 个 体 与 原来 个 
体 在 对 应 解 向 量 上 的 最 大 差异 程度 , 在 作用 上 与 标准 
SFLA 中 的 Da 是 相似 的 , 都 是 为 了 控制 算法 进行 全 
局 搜索 的 能 力 。 实 验 将 Da 设置 为 45， 即 新 产生 个 体 
与 原 个 体 在 对 应 解 向 量 上 的 差异 度 不 得 超过 45%。 参 
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数 工 决定 着 族群 内 青蛙 的 进化 次 数 ; 总 迭代 次 数 7 了 主 
要 与 问题 的 复杂 度 相 关 ， 问 题 复杂 度 越 高 , 了 也 应 设置 
得 越 大 , 找到 最 优 解 的 概率 才 会 增 大 。 但 由 于 实验 计 
算 青蛙 适应 度 的 时 间 开 销 较 大 , 故 将 族群 内 迭代 次 数 
工 设置 为 10, 将 总 迭代 次 数 7 设 置 为 10。 
3.3 ”适应 度 函 数 

群体 智能 算法 的 适应 度 函 数 用 来 计算 个 体 的 适应 
度 , 一 般 是 由 算法 的 优化 目标 来 决定 。 本 文 引 入 SFLA 
对 特征 选择 进行 优化 ,主要 目标 是 降低 文本 特征 集合 
的 维度 以 及 提高 文本 分 类 的 准确 率 。 因 此 , 将 文本 分 
类 准确 率 作为 衡量 每 只 青蛙 所 处 位 置 的 优 劣 , 使 青蛙 
向 分 类 准确 率 更 高 的 位 置 “跳跃 ”， 即 : 
分 类 正确 的 测试 文本 数 
测试 文本 集中 的 文本 总 数 


Fitness() = 


(9) 
3.4 算法 设计 

基于 改进 后 的 SFLA 的 文本 特征 选择 优化 算法 流 
程 如 下 : 

输入 : 训练 文本 集 TR, 测试 文本 集 A, 通过 CHI 
或 IG 要 得 到 的 预选 特征 词 数量 即 特征 空间 维度 5S, 初 
始 化 的 青蛙 数量 NN, 族群 数量 n, 最 大 移动 步 长 Da 
族群 内 最 大 进化 次 数 L， 总 迭代 次 数 7。 

输出 : 经 过 SFLA 二 次 优选 的 特征 集合 。 

(1) 使 用 分 词 软件 对 训练 文本 集 TR 进行 分 词 处 
理 , 然后 分 别 使 用 CHI 和 1IG 进行 文本 特征 预选 择 , 得 
到 候选 特征 集合 ; 

(2) 使 用 随机 函数 从 {0, 1} 为 蛙 群 中 每 只 青蛙 的 
位 置 的 每 一 维度 选 定 一 个 值 ， 对 应 维度 的 值 为 1 则 表 
示 选 择 该 特征 词 ， 对 应 维度 的 值 为 0 则 表示 不 选择 该 
寺 征 词 ， 以 此 作为 每 只 青蛙 的 位 置 初始 值 ; 

(3) 计算 每 只 青蛙 所 处 位 置 的 适应 度 ， 即 分 类 准 
确 率 。 将 每 只 青蛙 的 位 置 的 各 个 维度 上 值 为 1 的 特征 
词 作为 测试 文本 集 A 的 特征 表示 , 构造 测试 文本 集 A 
的 特征 向 量 , 再 使 用 分 类 器 计算 测试 文本 集 A 的 文本 
分 类 准确 率 ， 即 每 只 青蛙 所 处 位 置 的 适应 值 ; 

(4) 按照 改进 后 的 SFLA 算法 流程 , 直到 算法 迭 
代 次 数 达到 7 或 者 满足 其 他 停止 条 件 时 , 终止 算法 ， 
并 输出 最 优 解闷 ,输出 下 各 个 维度 的 值 为 1 的 特征 词 ， 
即 经 过 SFLA 二 次 优选 的 特征 集合 。 

基于 改进 后 的 SFLA 的 文本 特征 选择 优化 算法 流 
程 如 图 2 所 示 。 
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先 对 文本 进行 预 处 理 ， 
然后 分 别 使 用 CHI 和 IG 
对 文本 特征 进行 预选 择 


初始 化 算法 参数 ， 随 机 
产生 F 只 青蛙 Frog， 并 
计算 每 个 Frog 的 适应 度 
Fik(Frog)， 即 分 类 准确 率 


根据 每 个 Frog 对 应 的 适 
应 度 大 小 进行 降序 排序 ， 


并 确定 全 局 最 优 解 X 


将 所 有 Frog 按 照 划 
分 规则 分 成 a 个 族群 


将 所 有 族群 的 Frog 
重新 汇合 、 排 序 ， 并 
更 新 全 局 最 优 解 X 


省 是 否 满足 
停止 条 件 


输 出 最 优 解 X.， 即 经 过 
SFLA 精 选 的 4 特征 集合 


4 实验 分 析 


整个 实验 主要 分 为 两 个 部 分 : 第 一 部 分 是 未 使 用 
SFLA 进行 特征 优化 , 即 直接 将 经 过 传统 特征 选择 方 


传统 特征 选择 区 党/ 辐 达旦 
方法 (CHI、 IG) 
引入 SFLA 进 行 
二 次 优选 
图 3 
在 直接 使 用 传统 特征 选择 方法 CHI 或 IG 选 出 的 


特征 集合 用 于 文本 分 类 的 过 程 中 , 所 使 用 的 数据 集 是 
训练 文本 集 TR 和 测试 文本 集 B, 用 于 计算 原始 特征 集 
合 对 应 的 文本 分 类 准确 率 。 

在 引入 SFLA 进行 特征 集合 的 二 次 优选 过 程 中 ， 
由 于 需要 计算 SFLA 的 适应 度 ， 即 文本 分 类 准确 率 ， 
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确定 每 个 族群 的 局 部 最 
优 解 各 和 最 差 解 X， 
按照 公式 (4) 诗 公式 (7) 

改变 X ,的 位 轩 


和 


新 X, 的 适应 | 


用 总 代替 已， 再 交接 最 人 N 式 
人鱼 公 式 (7) 改 变 世 的 位 置 


新 X, 的 适应 度 是 奋 
大 于 原 X, 的 适应 度 


条 


否 
E 一 个 Frog， 作 为 新 XX | 


是 和 否 达 到 组 和 否 
最 大 搜索 次 数 


是 


后 的 SFLA 的 特征 选择 优化 方法 流程 图 


法 CHI 或 1G 选 出 的 特征 集合 用 于 文本 分 类 ; 第 二 部 分 
则 是 引入 SFLA 对 特征 集合 进行 二 次 优选 ,得 到 高 精 
度 的 特征 集合 ,， 并 将 其 用 于 文本 分 类 ， 如 图 3 所 示 。 


实验 流程 图 


所 使 用 的 数据 集 必须 包含 一 个 训练 文本 集 和 一 个 测试 
文本 集 , 因此 该 过 程 将 训练 文本 集 TR 和 测试 文本 集 
A 作为 数据 集 ， 即 建立 模型 所 需 的 训练 集 。 而 在 得 到 
高 精度 特征 集合 后 , 需要 计算 文本 分 类 准确 率 ， 此 时 
则 使 用 测试 文本 集 B， 即 评估 模型 性 能 的 测试 集 。 之 
所 以 这 两 个 过 程 使 用 到 两 个 测试 文本 集 , 是 因为 : 在 
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使 用 SFLA 进行 特征 优化 后 ,所 得 到 的 高 精度 特征 集 
合 可 能 对 测试 文本 集 A 产生 较 高 的 依赖 程度 , 因此 无 


集 , 使 用 IG 特征 选择 方法 , 分 别 预选 出 100-1200 维 共 
12 个 不 同 维度 的 特征 集合 IG_100-IG_1200, 并 分 别 计 


法 验证 这 个 高 精度 特征 集合 是 否 对 其 他 测试 文本 集 同 
样 有 更 好 的 文本 分 类 效果 。 因 此 在 使 用 SFLA 进行 特 
征 优化 得 到 高 精度 特征 集合 后 , 需要 使 用 测试 文本 集 
B 对 该 特征 集合 进行 评估 , 检验 其 分 类 准确 率 是 否 高 
于 原先 使 用 传统 特征 选择 方法 得 到 的 准确 率 。 另 外 ， 
使 用 SFLA 进行 特征 优化 的 过 程 中 需要 多 次 计算 分 类 
准确 率 , 如 果 在 SFLA 特征 优化 过 程 中 所 使 用 的 测试 
文本 集 规模 很 大 , 会 大 大 增加 时 间 开 销 ; 所 以 特征 优 
化 过 程 中 所 采用 的 测试 文本 集 A 规模 较 小 , 并 日 测试 
文本 集 A 是 从 测试 文本 集 B 的 每 个 类 别 中 各 抽取 15% 
而 组 成 的 数据 集 。 

为 了 更 好 地 说 明 算法 的 有 效 性 , 实验 分 别 使 用 英 
文 和 中 文 数据 集 。 实 验 一 所 采用 的 数据 集 是 路 透 社 语 
料 库 Reuters-21578 的 一 部 分 ; 实验 二 所 采用 的 数据 集 


是 中 山大 学 资讯 管理 学 院 智能 信息 处 理 实验 室 语料库 
的 一 部 分 (简称 实验 室 语料库 )。 

实验 所 使 用 的 操作 系统 为 32 位 的 Win 10 系统 ， 
内 存 4GB, i5-2400 处 理 器 , 利用 Java 语言 编写 程序 。 
文本 预 处 理 操 作 使 用 Lucene 开源 包 , 分 词 操 作 使 用 中 
国 科 学 院 计算 技术 研究 所 分 词 系统 ICTCLASPC。 预选 
寺 征 词 分 别 使 用 CHI 和 IG。 计 算 文本 特征 权重 则 使 用 
TF-IDF, 使 用 SVM 和 KNN 两 种 分 类 器 进行 分 类 。 实 
验 的 具体 步 又 如 下 : 

(1) 将 训练 文本 集 TR 和 测试 文本 集 B 作为 数据 
集 , 使 用 CHI 特征 选择 方法 , 分 别 预 选 出 100-1200 维 
(每 隔 100 取 一 个 ) 共 12 个 不 同 维度 的 特征 集合 CHI 


算 不 同 维度 下 的 分 类 准确 率 Pic; 

(5) 使 用 改进 后 的 二 进 制 SFLA 对 步骤 (4) 得 到 的 
12 个 不 同 维度 的 特征 集合 进行 特征 词 的 二 次 优选 。 同 
步骤 (2), 该 过 程 将 训练 文本 集 TR 和 测试 文本 集 A 作 
为 模型 的 训练 集 ， 用 于 计算 每 个 解 的 适应 度 ， 即 分 类 
准确 率 。 最 终 分 别 输出 SFLA 的 最 优 解 ， 即 
IG_100-IG 1200 各 自 经 过 特征 词 二 次 优选 后 的 高 精度 
特征 集合 ; 

(6) 将 步 又 (5) 得 到 的 二 次 优选 后 的 高 精度 特征 集 
合 ， 以 训练 文本 集 TR 和 测试 文本 集 B 作为 数据 集 , 分 
别 计算 不 同 维度 下 的 分 类 准确 率 PiG srra; 

(7) 在 12 个 不 同 维度 下 分 别 比较 未 使 用 SFLA 进 
行 特征 词 二 次 优选 的 准确 率 Pcm、Pic 与 使 用 SFLA 进 
行 特征 词 二 次 优选 的 准确 率 Pear srrA、Pia sFrA， 观 察 
使 用 前 后 的 准确 率 是 否 存在 较 大 差别 ; 

(8) 将 所 有 记录 的 准确 率 分 成 两 组 , 分 别 是 : 使 
用 SFLA 前 的 分 类 准确 率 P_old, 使 用 SFLA 后 的 分 类 
准确 率 P new。 然 后 使 用 配对 样本 T 检验 , 判断 两 种 
方法 得 到 结果 差异 是 否 存在 统计 学 意义 。 
4.1 实验 一 

实验 一 采用 路 透 社 语料库 Reuters-21578， 共 有 
acq、 crude、earn、grain、interest、money-fx、ship、 
trade 这 8 个 类 别 。 大 测试 文本 集 和 训练 文本 集 按 1:2.5 
进行 划分 , 各 个 类 别 的 具体 文本 数量 如 表 1 所 示 。 

表 1 Reuters-21578 语 料 类 别 分 布 表 


类 别 acq crude earn grain interest money-fx ship trade 总 数 


100-CHI_1200, 并 分 别 计算 不 同 维度 下 的 分 类 准确 率 
Peu; 

(2) 使 用 改进 后 的 二 进 制 SFLA 对 步骤 (1) 得 到 的 
12 个 不 同 维度 的 特征 集合 进行 二 次 优选 。 优 选 过 程 将 
训练 文本 集 TR 和 测试 文本 集 A 作为 模型 的 训练 集 ， 
用 于 计算 每 个 解 的 适应 度 ， 即 分 类 准确 率 。 最 终 分 别 
输出 SFLA 的 最 优 解 ， 即 CHI 100-CHI 1200 经 过 特征 
词 二 次 优选 后 的 高 精度 特征 集合 ; 

(3) 将 步骤 (2) 得 到 的 二 次 优选 后 的 高 精度 特征 集 
合 ， 以 训练 文本 集 TR 和 测试 文本 集 B 作为 数据 集 ， 分 
别 计算 不 同 维度 下 的 分 类 准确 率 Pcenr srLA; 

(4) 将 训练 文本 集 TR 和 测试 文本 集 B 作为 数据 
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训练 集 1 596 253 2 840 41 190 206 108 251 5 485 
大 测 


试 集 


696 121 1083 10 81 87 36 75 2189 


在 使 用 SVM 分 类 器 时 ，CHI 或 IG 方法 预选 出 的 
特征 集合 经 过 二 次 优选 后 的 实验 结果 如 表 2 所 示 。 
将 CHI 和 IG 两 组 分 别 绘制 成 折线 图 如 图 4 和 图 5 
所 示 。 与 表 2 相对 应 , 图 4 和 图 $ 的 横 坐 标 均 是 指 预 
选 特征 集合 的 特征 词 数量 。CHI_SFLA 是 指使 用 CHI 
进行 特征 词 预选 ， 再 使 用 SFLA 进行 二 次 优选 ; 
IG_SFLA 是 指使 用 IG 进行 特征 词 预 选 ,再 使 用 SFLA 
进行 二 次 优选 。 在 使 用 SVM 分 类 器 , Reuters-21578 英 
文 语料库 作为 数据 集 时 , 使 用 改进 后 的 SFLA 二 次 优 
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选 方法 明显 比 传统 特 
高 的 分 类 准确 率 , 并 且 随 着 维度 的 增加 ， 分 类 准确 率 


征 选择 方法 CHI 和 IG 能 得 到 更 


的 提升 幅度 有 增加 的 趋势 。 
表 2 SVM 分 类 器 下 Reuters-21578 各 个 特征 选择 


方法 的 分 类 准确 率 
ee CHI CHI SFLA IG IG SFLA 
维 数 (%) (%) (%) (%) 
100 93.102 92.143 90.132 ”90.772 
200 93.878 92.965 91.366 92.873 
300 92.554 92.005 89.082 92.736 
400 91.000 94.381 86.249 92.873 
500 90.726 94.153 85.381 92.325 
600 87.848 92.599 84.651 92.645 
700 85.975 93.878 83.919 92.462 
800 85.244 93.970 83.645 92.234 
900 84.513 93.878 83.326 91.594 
1 000 84.011 93.559 82.914 91.640 
1 100 83.646 94.107 82.686 93.376 
1 200 83.189 94.290 82.412 92.828 


100 200 300 400 500 600 700 800 900 1000 1100 1200 
特征 维度 
—— CHI ~ CHI SFLA 


类 器 下 Reuters-21578 英文 语料库 的 
分 类 准确 率 (CHI) 


图 4 SVM 分 


特征 维度 
-IG 所]IG SFLA 


类 器 下 Reuters-21578 英文 语料库 的 
分 米 类 准 确 率 (IG) 


图 5 SVM 分 
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在 使 用 KNN 分 类 器 时 ，CHI 或 IG 方法 预选 出 的 
特征 集合 经 过 二 次 优选 后 的 实验 结果 如 表 3 所 示 。 
表 3 KNN 分 类 器 下 Reuters-21578 各 个 特征 选择 


方法 的 分 类 准确 率 
寺 征 选 
久久 CHI CHISFLA IG IG SFLA 
维 数 (%) (%) (%) (%) 
100 90.361 91.914 87.391 90.955 
200 88.305 90.909 89.356 90.452 
300 87.483 91.275 89.082 90.361 
400 86.752 89.630 89.676 89.676 
500 87.300 91.366 88.305 88.716 
600 87.163 91.594 87.483 89.402 
700 86.661 91.138 87.117 89.630 
800 85.564 88.671 86.341 89.950 
900 84.742 88.031 86.067 89.676 
1 000 83.920 88.077 85.062 89.127 
1 100 81.361 87.803 84.376 89.493 
1 200 81.635 87.163 83.919 89.721 
将 CHI 和 IG 两 组 分 别 绘制 成 折线 图 如 图 6 和 图 7 
所 示 。 
100 
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类 器 下 Reuters-21578 英文 语料库 的 
分 类 准确 率 (IG) 


图 7 KNN 分 
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与 表 3 相对 应 , 图 6 和 图 7 的 横 坐 标 均 是 指 预选 
特征 集合 的 特征 词 数量 , 可 以 看 出 , 在 使 用 KNN 分 类 
器 ，Reuters-21578 英文 语料库 作为 数据 集 时 , 在 大 多 
数 维度 中 , 使 用 改进 后 的 SFLA 二 次 优选 方法 比 传统 
特征 选择 方法 CH 和 1IG 能 得 到 较 高 的 分 类 准确 率 , 但 
是 在 400 维度 时 , IG_SFLA 所 取得 的 分 类 准确 率 跟 IG 
的 恰好 一 样 , 没有 提高 , 但 此 时 经 过 IG_SFLA 二 次 优 
选 后 的 特征 集合 的 维度 小 于 400 维度 , 这 也 从 另 一 个 
度 说 明 通 过 IG 预选 出 来 的 400 维度 特征 集合 中 存在 
与 分 类 无 关 的 词 项 , 这 一 部 分 词 项 完全 可 以 剔除 。 

4.2 ”实验 二 

实验 室 语 料 库 是 由 中 山大 学 资讯 管理 学 院 智能 信 
息 处 理 实验 室 所 收集 和 整理 3Y, 共有 13 个 类 别 。 本 次 
实验 从 中 选取 文本 数量 较 多 的 8 个 类 : education 、 
entertainment 、event、finance 、game 、occultism 、Sport、 
technology， 从 每 个 类 别 中 随机 选取 200 篇 文本 , 共 1 
600 篇 ,作为 实验 的 训练 文本 集 ; 从 剩 下 的 文本 集中 
每 个 类 别 随机 选取 200 篇 文本 ,， 共 1 600 篇 ,作为 实验 
的 测试 文本 集 B, 用 于 对 精 选 后 的 特征 集合 的 检验 ; 
再 从 8 个 类 中 每 类 随机 选取 20 篇 文本 , 共 160 篇 , 作 
为 实验 的 测试 文本 集 A。 对 训练 文本 集 进行 文本 预 处 
理 、 分 词 去 重 以 及 去 除 停 用 词 后 ， 共 得 到 52 794 个 特 
征 词 。 

在 使 用 SVM 分 类 器 时 ，CHI 或 IG 方法 预选 出 的 
特征 集合 经 过 二 次 优选 后 的 实验 结果 如 表 4 所 示 。 

表 4 SVM 分 类 器 下 实验 室 语料库 各 个 特征 选择 方法 的 


分 类 准确 率 
Ce CHI CHI SFLA 1IG IG SFLA 
维 数 (%) (%) (%) (%) 
100 77.042 77.417 55.667 56.958 
200 83.292 85.792 68.667 76.333 
300 80.833 86.083 73.833 83.083 
400 77.458 84.625 77.083 79.000 
500 78.875 85.708 78.708 80.292 
600 80.583 86.167 80.083 83.458 
700 80.417 86.208 81.167 84.625 
800 80.375 85.333 81.833 86.250 
900 80.667 85.958 81.417 84.708 
1 000 80.750 87.292 81.167 86.667 
1 100 80.583 84.667 80.500 82.125 
1 200 80.208 86.042 80.250 83.250 
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将 CHI 和 1G 两 组 分 别 绘制 成 折线 图 如 图 8 和 图 9 


100 200 300 400 500 600 700 800 900 1000 1100 1200 
-Eo a -人 es 
图 8 SVM 分 类 器 下 实验 室 语料库 的 CHI SFLA 
和 CHI 的 分 类 准确 率 
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图 9 SVM 分 类 器 下 实验 室 语 料 库 的 IG SFLA 
和 IG 的 分 类 准确 率 

从 图 8 和 图 9 可 以 看 出 , 采用 实验 室 语料库 作为 
数据 集 时 , 改进 后 的 SFLA 二 次 优选 方法 比 传统 特征 
选择 方法 CHI 和 IG 均 能 得 到 较 高 的 分 类 准确 率 。 并 
日 二 者 都 是 在 维度 为 1 000 维 的 时 候 取得 最 高 分 类 准 
确 率 。 在 提高 幅度 方面 CHI SFLA 在 400 维度 时 比 
CHI 提高 了 约 7%, IG_SFLA 在 300 维度 时 比 IG 提高 
了 约 9%。 总 体 而 言 ， 当 使 用 传统 特征 选择 方法 所 得 到 
的 分 类 准确 率 较 低 时 , 改进 后 的 SFLA 二 次 优选 方法 
的 优化 效果 比较 明显 。 

在 使 用 KNN 分 类 器 时 ， CHI 或 IG 方 法 预选 出 的 
特征 集合 经 过 二 次 优选 后 的 实验 结果 如 表 5 所 示 。 

将 CHI 和 1G 两 组 分 别 绘制 成 折线 图 如 图 10 和 图 
11 所 示 。 从 图 10 可 以 看 出 , 在 KNN 分 类 器 下 , 采用 
实验 室 语料库 作为 数据 集 时 ，CHI SFLA 比 CHI 取得 
更 高 的 分 类 准确 率 , 但 是 在 100 维 和 1 000 维 时 提高 幅 
度 不 明显 , 但 也 达到 了 降 维 效果 。 从 图 11 可 以 看 出 ， 
在 KNN 分 类 器 下 , IG_SFLA 明显 比 IG 取得 更 高 的 分 
类 准确 率 , 在 1 000 维和 1 100 维 时 提高 幅度 达到 12%。 
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表 5 KNN 分 类 器 下 实验 室 语料库 各 个 特征 选择 2 
方法 的 分 类 准确 率 ep 一 
村 征 选 Ne 
ee CHI CHI SFLA IG IG SFLA 3 50 
地 40 
维 数 (%) (%) (%) (%) 新 
100 72.125 72.750 52.958 55.583 和 
0 人 0 00 700 300 400 500 600 700 800 500 1000 1100 7200 
300 69.250 77.083 65.458 72.917 特征 维度 
CHI -e-CHI SFLA 
400 68.458 76.333 67.667 71.917 
分 类 器 下 实验 室 语料库 角 
500 69.083 79.000 67.167 70.917 图 10 KNN 分 类 器 下 实验 i 衬 库 9 CHI_SFLA 
和 CHI 的 分 类 准确 率 
600 68.167 76.708 65.917 72.292 
80 
700 68.083 75.500 64.542 69.917 20 
800 68.750 77.292 60.458 70.458 全 60 
T= 50 
900 68.167 76.167 57.208 68.833 人 
刍 
€ 1 000 70.625 74.708 57.167 69.917 波 30 
一 R20 
人 1 100 71.417 77.208 58.667 71.458 ie 
1 200 69.958 78.792 60.792 68.750 


” 100 200 300 400 500 600 700 800 900 1000 1100 1200 
去 征 纵 
十 由 <- 毕 之 


IG -@- IG SFLA 


4.3 ”配对 样本 工 检 验 
一 将 所 有 得 到 的 准确 率 数据 分 成 两 组 , 分 别 是 图 11 KNN 分 类 器 下 实验 室 语料库 的 IG_SFLA 


让 ”pp olq 和 P new, 在 SPSS 工具 中 使 用 配对 样本 工 检验 ， 和 IG 的 分 类 准确 率 
结果 如 表 6 所 示 。 和 使 用 SFLA 后 的 分 类 准确 率 P new 存在 显著 差异 ， 


从 表 6 可 以 看 出 ，Sig.=.000<0.01, 说 明 在 显著 度 。 可见 使 用 SFLA 进行 特征 优化 选择 后 ,对 文本 的 分 类 
为 99% 的 水 平 下 , 使 用 SFLA 前 的 分 类 准确 率 P_old ”准确 率 有 明显 的 提升 效果 。 


表 6 配对 样本 了 检验 结果 表格 


成 对 差分 
差分 的 95% 置 信 区 间 t df ”Sig. ( 双 侧 
Cy 均值 标准 差 ”均值 的 标准 误 | IB 0) 
下 限 上 限 
对 1 P_old-P new —5.39820 3.29716 .33651 —6.06626 —4.73013 —16.042 95 .000 
4.4 实验 结论 存在 较 多 噪声 特征 项 ,对 分 类 需 的 分 类 效果 会 造成 较 


实验 一 和 实验 二 的 结果 都 说 明了 基于 改进 后 的 ”大 的 影响 , 从 而 使 分 类 准确 率 相对 较 低 ; 而 引入 改进 
SFLA 的 文本 特征 选择 优化 算法 比 传统 的 CH 和 1IG 能 ”后 的 SFLA 之 后 , 对 特征 集合 进行 了 二 次 优选 , 利用 
得 到 更 好 的 分 类 效果 , 说 明了 改进 后 的 SFLA 对 文本 ”SFLA 的 迭代 寻 优 旦 收敛 性 较 好 的 特点 , 保留 具有 区 
特征 二 次 优选 具有 较 好 的 可 行 性 和 有 效 性 , 原因 主要 ”分 能 力 的 特征 词 项 ,并 排除 部 分 与 分 类 无 关 的 噪声 词 
是 : CHI\IG 等 传统 的 特征 选择 方法 是 通过 某 一 数学 评 。 项 ,从 而 较 大 程度 地 提高 了 文本 分 类 的 准确 率 。 
价 模型 从 原始 特征 集合 中 筛选 出 具有 较 好 的 区 分 能 
和 文本 代表 性 的 特征 集合 , 即 是 在 统计 学 角度 进行 得 
选 特征 集合 的 , 并 没有 从 文本 的 角度 考虑 特征 词 之 间 本 文 从 特征 选择 对 文本 分 类 效果 的 整体 影响 角度 
的 相互 影响 以 及 元 余 词 项 对 文本 分 类 效果 的 整体 影 。” 出 发 , 引入 了 在 文本 领域 应 用 不 多 的 SFLA 并 尝试 将 
响 。 因 此 使 用 CHI 和 IG 所 得 到 的 候选 特征 集合 必然 。 ”其 应 用 在 文本 特征 选择 优化 中 。 通 过 与 传统 特征 选择 


S 结 语 
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方法 CHI 和 IG 的 对 比 实验 可 以 看 到 ， 基 于 改进 后 的 


SFLA 的 文本 特征 选择 优化 方法 较 CHI 和 IG 能 


得 更 


高 的 分 类 准确 率 ， 主要 是 因为 在 算法 迭代 过 程 中 对 预 
选 特征 集合 去 除了 较 多 噪声 特征 项 ， 降 低 了 噪声 特征 
项 对 文本 分 类 的 影响 程度 ， 从 而 能 得 到 更 好 的 分 类 效 
果 。 然 而 本 文 所 使 用 的 改进 后 的 SFLA 相关 参数 的 设 
置 只 是 基于 小 规模 测试 实验 得 出 的 结果 ,下 一 步 将 尝 
试 通过 对 SFLA 的 相关 参数 进行 寻 优 , 找到 相关 参数 
的 最 佳 取 值 范围 , 使 算法 结果 进一步 接近 最 优 解 ， 从 


而 得 到 更 优 的 高 精度 特征 集合 以 及 更 好 的 分 类 效果 。 
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Optimizing Feature Selection Method for Text Classification with 
Shuffled Frog Leaping Algorithm 


LuYonghe Chen Jinghuang 
(School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: [Objective] This paper introduces the shuffled frog leaping algorithm (SFLA) to remove the irrelevant terms 
from the texts, and optimizes the feature selection method to improve the accuracy of text classification. [Methods] 
First, we used CHI and IG techniques to pre-select different dimensions of feature terms, and then adopted the modified 
SFLA to refine the text features” list. Second, we used a frog to represent a feature selection rule, and applied the 
classification precision as the fitness function. Finally, the SVM and KNN classifier were adopted to calculate the 
classification precision. [Results] The modified SFLA had better performance in classification precision than CHI and 
IG, and the highest increasing rate was 12%. [Limitations] The feature over fitting occured in small portion of space 
dimensions. [Conclusions] Using feature preselection and the modified SFLA could effectively exclude irrelevant or 
invalid terms, and then improve the precision of feature selection. 


Keywords: Feature Selection Text Classification Shuffled Frog Leaping Algorithm 


Data Analysis and Knowledge Discovery 


